Inteligența artificială reconstruiește videoclipuri „cinematice” din undele cerebrale, cu o acuratețe impresionantă: experimentul parcă desprins din Black Mirror
O echipă de cercetători a folosit inteligența artificială (AI) pentru a reconstrui videoclipuri, folosind date funcționale continue de imagistică prin rezonanță magnetică (fMRI) ale creierului participanților.
Publicând descoperirile lor, cercetătorii au folosit date preluate de la voluntari care au vizionat videoclipuri cu diverse lucruri – inclusiv animale, oameni și peisaje naturale – în timp ce erau supuși scanărilor creierului.
„Sarcina de a recrea viziunea umană din înregistrările creierului, în special folosind instrumente non-invazive, cum ar fi imagistica prin rezonanță magnetică funcțională (fMRI), este o sarcină interesantă, dar dificilă”, a spus echipa, de la Universitatea Națională din Singapore și Universitatea Chineză din Hong Kong, în studiul lor.
„Metodele non-invazive, deși mai puțin intruzive, captează informații limitate, susceptibile la diverse interferențe, cum ar fi zgomotul”.
Inteligența artificială, la un nou nivel
O provocare pentru recrearea intrării video sau în mișcare (adică ceea ce cineva a vizionat în timp ce i s-a scanat creierul) este că aparatele fMRI captează instantanee ale activității creierului la fiecare câteva secunde.
„Fiecare scanare fMRI reprezintă în esență o „medie” a activității creierului în timpul instantaneului. În schimb, un videoclip tipic are aproximativ 30 de cadre pe secundă (FPS). Dacă un cadru fMRI durează două secunde, în acest timp, 60 de cadre video – potențial care conțin diverse obiecte, mișcări și schimbări de scenă – sunt prezentate ca stimuli vizuali. Astfel, decodarea fMRI și recuperarea videoclipurilor la un FPS mult mai mare decât rezoluția temporală a fMRI este o sarcină complexă”.
Astfel, cercetătorii au antrenat AI – pe care o numesc MinD-Video – pentru a decoda datele fMRI și au modificat modelul AI care generează imagini Stable Diffusion pentru a recrea intrarea ca video. Videoclipurile au fost apoi evaluate în termeni de semantică (dacă AI a înțeles că intrarea a fost o pisică, sau un om care alergă etc) și dinamica scenei, sau cât de aproape a arătat reconstrucția vizuală la nivel de pixel.
Echipa raportează că sistemul lor a fost precis cu 85% din punct de vedere semantic, depășind cu 45% modelul anterior de AI cu cele mai bune performanțe.
„Obiectele de bază, animalele, persoanele și tipurile de scene pot fi bine recuperate din datele de scanare a creierului”, a adăugat echipa.
„Mai important, mișcările, cum ar fi alergarea, dansul și cântatul, și dinamica scenei, cum ar fi prim-planul unei persoane, scenele cu mișcare rapidă și scena de lungă durată a unei vederi a orașului, pot, de asemenea, să fie reconstruit corect”.
Cercetătorii, care au publicat mai multe exemple pe site-ul lor Mind-Video, speră că munca este promițătoare în dezvoltarea interfețelor creier-calculator, deși subliniază că reglementarea este necesară pentru a proteja datele biologice ale oamenilor „și pentru a evita orice utilizare rău intenționată a acestei tehnologii”.